Presentación Estadística Aplicada III

Alonso Martinez Cisneros

Juan Carlos Sigler Priego

Carlos Delgado

Esmeralda Altamirano

2022-06-06

Propuesta del Proyecto

Planteamiento del problema

  • Transporte público en la Ciudad de México.
  • 9,275,467 habitantes
  • ¿Bien planeado y accesible?

Objetivos

  • Cuantificar el nivel de acceso de la población de distintas alcaldías a los diversios medios de transporte público:
    • Metro
    • Metrobus
    • Tren Ligero
    • Cablebus
  • Determinar que tan bien distribuido está el transporte público en la ciudad

Hipótesis

  • El transporte público está muy centralizado en la zona del centro histórico.
    • Benito Juárez, Cuauhtémoc son zonas privilegiadas.

Análisis exploratorio

  • Hay 16 alcaldías.
  • Años: 1969-2021
info |> head()
##    AÑO     ALCALDIA POBLACION MEAN_DIST EST_TOTAL ZOC_DIST
## 1 1969 Azcapotzalco    527857 2019.0774         0 2028.311
## 2 1970 Azcapotzalco    534554 1050.1630         0 2028.311
## 3 1971 Azcapotzalco    541251 1050.1630         0 2028.311
## 4 1972 Azcapotzalco    547948  958.8664         0 2028.311
## 5 1973 Azcapotzalco    554645  958.8664         0 2028.311
## 6 1974 Azcapotzalco    561342  958.8664         0 2028.311
summary(info)
##       AÑO         ALCALDIA           POBLACION         MEAN_DIST      
##  Min.   :1969   Length:848         Min.   :  30700   Min.   :  140.8  
##  1st Qu.:1982   Class :character   1st Qu.: 257079   1st Qu.:  382.5  
##  Median :1995   Mode  :character   Median : 443768   Median :  942.3  
##  Mean   :1995                      Mean   : 532742   Mean   : 2252.4  
##  3rd Qu.:2008                      3rd Qu.: 639251   3rd Qu.: 3051.8  
##  Max.   :2021                      Max.   :1840000   Max.   :12926.4  
##                                                      NA's   :53       
##    EST_TOTAL         ZOC_DIST    
##  Min.   :  0.00   Min.   : 2028  
##  1st Qu.:  0.00   1st Qu.: 3641  
##  Median :  5.00   Median : 5831  
##  Mean   : 10.94   Mean   : 7366  
##  3rd Qu.: 15.00   3rd Qu.:12048  
##  Max.   :118.00   Max.   :17697  
##                   NA's   :53

Descripción de las variables de interés

  • Variables
    • AÑO
    • ALCALDIA
    • POBLACIÓN
    • MEAN_DIST
    • EST_TOTAL
    • ZOC_DIST

Construcción de la base de datos

Número total de estaciones por delegación

  • Ubicación de líneas y estaciones del Metrobús
  • Ubicación de líneas y estaciones del Sistema de Transporte Colectivo Metro
  • Ubicación de líneas y estaciones/paradas del Servicio de Transportes Eléctricos

  • A simple vista se podría sospechar que el transporte público está concentrado al centro y norte del territorio.
    • Centro: Miguel Hidalgo, Cuauhtémoc, Benito Juárez
  • Las carencias más grandes se pueden ver en las alcaldías de Tlalpan, Magdalena Contreras, Xochimilco y Milpa Alta.

Distancia promedio al transporte público

  • MEAN_DIST
  • Cómo es que el transporte está distribuido con respecto a la población y dónde vive ésta.
  • Ideas insuficientes
    • Cantidad de estaciones en total contenidas dentro de los límites de una alcaldía
    • Número total de estaciones normalizado por área las alcaldías
  • Conectividad: distancia promedio por alcaldía de las zonas residenciales al transporte más cercano.
  • Uso de suelo de la CDMX publicado por la Secretaría de Desarrollo Urbano y Vivienda.
    • Falta Álvaro Obregón, una de las más pobladas

Número total de estaciones & distancia a la zona centro

  • Total de estaciones dentro de la alcaldía por año para tomar en cuenta cómo ha evolucionado el sistema de transporte unificado.
  • La distancia a la zona centro se toma como la distancia promedio de las mismas zonas residenciales al zócalo de la ciudad.
    • Zócalo como punto central puesto que es una de las zonas más antiguas y por lo tanto el crecimiento de la zona metropolitana de la ciudad ha sido radialmente hacia afuera de esta zona.
    • Las primeras estaciones de metro y metrobus fueron construidas precisamente para servir a la zona centro.

Acceso a transporte con base en la población

  • Concentración alta de transporte en la zona centro.
  • Sin embargo, las alcaldías del centro no son las más pobladas.

  • Evolución de la conectividad como función del tiempo.
  • Zona centro siempre ha estado bien conectada.
    • Cuauhtémoc, Benito Juárez y Venustiano Carranza tienen las menores varianzas en distancia media y además las más pequeñas.
  • Tláhuac, Cuajimalpa y Milpa Alta son los de mayor distancia y variación.
  • Sesgo a la izquierda: el sistema evolucionó rápidamente para cubrir gran parte de la zona metropolitana.

Podemos ver que las alcaldías de . Estas alcaldías son precisamente la que definimos como “zona centro” desde el inicio. De esta observación confirmamos que la zona centro siempre ha estado muy bien conectada porque el sistema de transporte unificado fue construido pensando en servir específicamente a esta zona. Además, se puede notar que su distancia promedio promedio a la estación de transporte más cercana sigue siendo muy baja en comparación a otras alcaldías, incluso las más pobladas como Iztapalapa.

Por otro lado, Tláhuac, Cuajimalpa y Milpa Alta son los de mayor distancia y variación. En el caso de Tlahuac por ejemplo, siendo una de las alcaldías más al sur, lo que interpretamos es que su distancia promedio a las primeras estaciones era excesivamente alta y fue disminuyendo a medida que mejoró la cobertura. En el cao de Cuajimalpa la distancia disminuyó dramáticamente pero al día de hoy, sigue siendo la alcaldía “peor conectada” por distancia.

Otra cosa que podemos observar es que la línea en la caja que marca la media está en todos los caso mucho más cerca del extremo izquierdo de la caja. Lo cual nos quiere decir que los datos están sesgados, y que la mayoría está más cerca del lado de “distancia baja”. En otras palabras, la distancia promedio mejoró muy rápidamente, lo cual sugiere que el sistema de transporte unificado evolucionó rápidamente para cubrir gran parte de la zona metropolitana.

En la figura [] consideramos el número total de estaciones en la alcaldía como función del tiempo. Aqui podemos ver que el número de estaciones en las alcadías de la zona centro excede vastamente el de las alcaldías más periféricas, como Iztapalapa. Analizando la variabilidad mediante el ancho de la caja podemos ver también que por ejemplo en la alcaldía Cuauhtémoc y GAM se han construido muchas estaciones con el paso de los años. Lo cual nos da pistas por ejemplo en el caso de Cuauhtémoc que no solo comenzaron estando muy bien conectadas, la inversión ha continuado más y más a pesar de que era buena desde un inicio. El número total de estaciones en Cuauhtémoc ha llegado a casi 120, mientras que en la mayoría no se exceden las 50.

Otra cosa que llama la atención es el caso de Benito Juárez. El número total de estaciones no ha crecido tan dramáticamente como en las otras alcaldías de la zona centro, pero recordando su distancia promedio al transporte es una de las alcaldías mejor conectadas. Esto nos indica que a pesar de que no se han hecho muchas estaciones nuevas en sus límites territoriales, las que se han hecho han estado en la zona circundante y han mejorado su conectividad. Esa zona es precisamente la zona centro. Una pista más que indica que la inversión en creación de nuevas líneas ha estado privilegiando a la zona centro.

Análisis de Correlación

Si bien hasta ahora nos hemos servido de interpretar diversas gráficas para tomar intuición, si queremos cuantificar qué tan notorio es el efecto de inversión privilegiada en la zona centro tenemos que servirnos de otras técnicas estadísticas. Por ejemplo, si nuestra hipótesis tiene evidencia favorable esperaríamos observar una correlación positiva entre distancia al zócalo de la ciudad y la conectividad medida como distancia promedio al transporte más cercano y número total de estaciones. En la figura [] vemos un diagrama de correlación para las variables estudiadas.

Efectivamente se cumple que la correlación de distancia al Zocalo con distancia al transporte más cercano es positiva. Es decir, entre más se aleja la zona habitacional del zócalo, más se aleja de la zona de cobertura del sistema de transporte unificado. También se puede apreciar este fenómeno en la correlación negativa entre distancia al zócalo con el número total de estaciones. Es decir, entre más lejos está la alcaldía del zócalo menor es el número total de estaciones a las que se tiene acceso. Las correlaciones son aparentemente débiles, pero notables. Sospechamos que la correlación se hace más fuerte a medida que se va hacia atrás en el tiempo cuando había menos estaciones en total. El corolario es que esta conectividad si ha estado mejorando desde que se empezó a construir la primera linea de metro hasta la actualidad.

La matriz explícita de correlaciones es:

##                   AÑO   POBLACION   MEAN_DIST  EST_TOTAL    ZOC_DIST
## AÑO        1.00000000  0.05027633 -0.25326897  0.4107378  0.00000000
## POBLACION  0.05027633  1.00000000 -0.46078990  0.2897473 -0.24891913
## MEAN_DIST -0.25326897 -0.46078990  1.00000000 -0.4426642  0.07660255
## EST_TOTAL  0.41073776  0.28974731 -0.44266419  1.0000000 -0.22176754
## ZOC_DIST   0.00000000 -0.24891913  0.07660255 -0.2217675  1.00000000

Si graficamos la distancia promedio al sistema de transporte por alcaldía la correlación espacial entre distancia al centro de la ciudad aproximado mediante la posición del zócalo podremos tener indicación visual de si nuestra hipótesis tiene sentido. Como medida de visualización está bien, pero hay varios problemas con ella como método formal. Por ejemplo, que algunas alcaldías son muy “largas” y sus puntos más cercanos y más lejanos el centro de la ciudad serán coloreados del mismo color a pesar de que no tienen la misma conectividad. El mejor ejemplo de este caso es Álvaro Obregón. Su zona norte y oriente están bien conectadas: cerca de Tacubaya y con el corredor Insurgentes Sur respectivamente. Por otro lado, las zonas como Los Dínamos y Las Águilas están muy lejos del resto del sistema.

[Aqui grafica perrona de correlación a través del tiempo.]

PCA

df <- info[info$ALCALDIA != 'Álvaro Obregón',]
df <- subset(df, select=-c(ALCALDIA))
z <- princomp(df, cor = T)
summary(z, loadings = TRUE)
## Importance of components:
##                          Comp.1    Comp.2    Comp.3    Comp.4     Comp.5
## Standard deviation     1.434476 1.0505992 0.9382218 0.7185053 0.66483939
## Proportion of Variance 0.411544 0.2207517 0.1760520 0.1032500 0.08840228
## Cumulative Proportion  0.411544 0.6322957 0.8083478 0.9115977 1.00000000
## 
## Loadings:
##           Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## AÑO        0.363  0.643  0.327  0.581  0.105
## POBLACION  0.462 -0.434 -0.400  0.496 -0.438
## MEAN_DIST -0.536         0.450  0.239 -0.672
## EST_TOTAL  0.547  0.195  0.231 -0.597 -0.503
## ZOC_DIST  -0.262  0.599 -0.691        -0.303
screeplot(z)

# Construcción de un índice de conectividad

Aquí construimos un índice de conectividad basado en los datos del año 2021. El índice lo construimos por medio del análisis factorial. Las variables utilizadas serán: población, distancia promedio a las estaciones, y cantidad de estaciones en la alcaldía. La prueba de esfericidad de Bartlett indica que las correlaciones son significativas y la prueba Kaiser–Meyer–Olkin (KMO) indica una adecuación medianamente regular.

Las pruebas de Bartlett y KMO dicen lo siguiente:

bartlett.test(df2)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  df2
## Bartlett's K-squared = 94.484, df = 1, p-value < 2.2e-16
KMO(cor(df2))
## Kaiser-Meyer-Olkin factor adequacy
## Call: KMO(r = cor(df2))
## Overall MSA =  0.5
## MSA for each item = 
## EST_TOTAL MEAN_DIST 
##       0.5       0.5

El gráfico de sedimentación (scree plot en inglés) indica que un factor es suficiente en este caso.

Al ver el modelo generado, vemos que el factor o constructo contrasta la población y cantidad de estaciones contra la distancia media a las mismas. Un valor muy alto del índice indicaría que tienes mucha población o estaciones, mientras que un índice bajo indicaría una valor mucho mayor de la distancia respecto a las estaciones y a la población.

## Factor Analysis using method =  ml
## Call: fa(r = df2, nfactors = 1, rotate = "varimax", fm = "ml")
## Standardized loadings (pattern matrix) based upon correlation matrix
##             ML1   h2   u2 com
## EST_TOTAL -0.68 0.47 0.53   1
## MEAN_DIST  0.68 0.47 0.53   1
## 
##                 ML1
## SS loadings    0.93
## Proportion Var 0.47
## 
## Mean item complexity =  1
## Test of the hypothesis that 1 factor is sufficient.
## 
## The degrees of freedom for the null model are  1  and the objective function was  0.24 with Chi Square of  3.06
## The degrees of freedom for the model are -1  and the objective function was  0 
## 
## The root mean square of the residuals (RMSR) is  0 
## The df corrected root mean square of the residuals is  NA 
## 
## The harmonic number of observations is  15 with the empirical chi square  0  with prob <  NA 
## The total number of observations was  15  with Likelihood Chi Square =  0  with prob <  NA 
## 
## Tucker Lewis Index of factoring reliability =  1.528
## Fit based upon off diagonal values = 1
## Measures of factor score adequacy             
##                                                    ML1
## Correlation of (regression) scores with factors   0.80
## Multiple R square of scores with factors          0.64
## Minimum correlation of possible factor scores     0.27

Construimos ahora el índice para cada delegación en 2021. Podemos ver que las delegaciones con el índice más alto coinciden con las delegaciones con más estaciones y más población, que son las de la zona centro e Iztapalapa.

##                           ML1     rango
## Cuajimalpa          1.0000000 1.0000000
## Magdalena Contreras 0.7531646 0.7531646
## Milpa Alta          0.5932029 0.5932029
## Tlalpan             0.5378280 0.5378280
## Xochimilco          0.5089590 0.5089590
## Tláhuac             0.5010615 0.5010615
## Coyoacán            0.4362488 0.4362488
## Miguel Hidalgo      0.4030760 0.4030760
## Azcapotzalco        0.3906104 0.3906104
## Iztacalco           0.3792131 0.3792131
## Benito Juárez       0.3009982 0.3009982
## Iztapalapa          0.2964403 0.2964403
## Venustiano Carranza 0.2746114 0.2746114
## Gustavo A. Madero   0.1092868 0.1092868
## Cuauhtémoc          0.0000000 0.0000000

Análisis del índice de conectividad por año

Queremos ver cómo ha evolucionado el índice de conectividad de las diversas alcaldías a medida que ha ido creciendo el sistema de transporte unificado.

Analisis Factorial

Pruebas de hipótesis

Regresión lineal

Una de las herramientas que revisamos en el curso que tiene mayor poder para establecer relaciones entre variables es la regresión lineal. La usaremos para investigar qué efectos tiene sobre [índice de movilidad calculado antes o alguna de las métricas de conectividad] la población y la distancia promedio de la alcaldía a la zona centro de la ciudad. Primero se ajusta un modelo multivariado donde EST_TOTAL y MEAN_DIST (total de estaciones y distancia promedio a la estación más cercana) son las variables de respuesta. Más tarde hacemos la regresión sobre el índice calculado.

lm_m <- lm(cbind(EST_TOTAL, MEAN_DIST) ~ AÑO + ALCALDIA + POBLACION + ZOC_DIST, data=info)
summary(lm_m)
## Response EST_TOTAL :
## 
## Call:
## lm(formula = EST_TOTAL ~ AÑO + ALCALDIA + POBLACION + ZOC_DIST, 
##     data = info)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -19.780  -5.017  -0.581   3.737  55.190 
## 
## Coefficients: (1 not defined because of singularities)
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 -9.995e+02  4.376e+01 -22.841  < 2e-16 ***
## AÑO                          5.102e-01  2.200e-02  23.196  < 2e-16 ***
## ALCALDIABenito Juárez        8.178e+00  1.826e+00   4.479 8.62e-06 ***
## ALCALDIACoyoacán            -1.658e+00  1.842e+00  -0.900 0.368476    
## ALCALDIACuajimalpa          -1.582e+01  1.996e+00  -7.924 7.97e-15 ***
## ALCALDIACuauhtémoc           4.310e+01  1.870e+00  23.047  < 2e-16 ***
## ALCALDIAGustavo A. Madero    3.263e+01  2.594e+00  12.581  < 2e-16 ***
## ALCALDIAIztacalco           -1.536e+00  1.826e+00  -0.841 0.400562    
## ALCALDIAIztapalapa           2.230e+01  2.987e+00   7.466 2.22e-13 ***
## ALCALDIAMagdalena Contreras -1.462e+01  1.942e+00  -7.529 1.42e-13 ***
## ALCALDIAMiguel Hidalgo       4.839e+00  1.827e+00   2.649 0.008240 ** 
## ALCALDIAMilpa Alta          -1.669e+01  2.041e+00  -8.177 1.18e-15 ***
## ALCALDIATláhuac             -1.266e+01  1.903e+00  -6.651 5.47e-11 ***
## ALCALDIATlalpan             -6.940e+00  1.825e+00  -3.802 0.000155 ***
## ALCALDIAVenustiano Carranza  1.799e+01  1.834e+00   9.811  < 2e-16 ***
## ALCALDIAXochimilco          -1.240e+01  1.869e+00  -6.633 6.17e-11 ***
## POBLACION                   -1.930e-05  2.336e-06  -8.265 5.99e-16 ***
## ZOC_DIST                            NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.394 on 778 degrees of freedom
##   (53 observations deleted due to missingness)
## Multiple R-squared:  0.735,  Adjusted R-squared:  0.7296 
## F-statistic: 134.9 on 16 and 778 DF,  p-value: < 2.2e-16
## 
## 
## Response MEAN_DIST :
## 
## Call:
## lm(formula = MEAN_DIST ~ AÑO + ALCALDIA + POBLACION + ZOC_DIST, 
##     data = info)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2267.7  -330.8   -18.6   304.5  2816.6 
## 
## Coefficients: (1 not defined because of singularities)
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  8.177e+04  3.632e+03  22.510  < 2e-16 ***
## AÑO                         -4.003e+01  1.826e+00 -21.922  < 2e-16 ***
## ALCALDIABenito Juárez       -2.740e+02  1.516e+02  -1.808    0.071 .  
## ALCALDIACoyoacán             7.042e+02  1.529e+02   4.606  4.8e-06 ***
## ALCALDIACuajimalpa           7.705e+03  1.657e+02  46.507  < 2e-16 ***
## ALCALDIACuauhtémoc           1.833e+02  1.552e+02   1.180    0.238    
## ALCALDIAGustavo A. Madero    2.571e+03  2.153e+02  11.939  < 2e-16 ***
## ALCALDIAIztacalco           -1.261e+02  1.516e+02  -0.832    0.406    
## ALCALDIAIztapalapa           4.399e+03  2.480e+02  17.741  < 2e-16 ***
## ALCALDIAMagdalena Contreras  3.712e+03  1.612e+02  23.026  < 2e-16 ***
## ALCALDIAMiguel Hidalgo       2.419e+02  1.516e+02   1.595    0.111    
## ALCALDIAMilpa Alta           2.774e+03  1.694e+02  16.370  < 2e-16 ***
## ALCALDIATláhuac              2.575e+03  1.580e+02  16.302  < 2e-16 ***
## ALCALDIATlalpan              1.717e+03  1.515e+02  11.334  < 2e-16 ***
## ALCALDIAVenustiano Carranza  1.835e+01  1.522e+02   0.121    0.904    
## ALCALDIAXochimilco           1.423e+03  1.551e+02   9.172  < 2e-16 ***
## POBLACION                   -2.858e-03  1.939e-04 -14.741  < 2e-16 ***
## ZOC_DIST                            NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 779.8 on 778 degrees of freedom
##   (53 observations deleted due to missingness)
## Multiple R-squared:  0.915,  Adjusted R-squared:  0.9132 
## F-statistic: 523.3 on 16 and 778 DF,  p-value: < 2.2e-16

Interpretación, conclusiones, etc…